Segmentation des fichiers logs

نویسندگان

  • Hassan Saneifar
  • Stéphane Bonniol
  • Pascal Poncelet
  • Mathieu Roche
چکیده

Résumé. Avec la méthode de segmentation appelée passages de discours, la reconnaissance des divisions logiques de documents est essentielle. Cela s’avère plus difficile dans les documents ayant des unités logiques différentes de celles trouvées dans les textes classiques comme les paragraphes ou les sections. Ainsi, nous proposons une méthode automatique pour caractériser les unités logiques complexes propres à ce type de document en fonction de certaines caractéristiques. Ensuite, un processus d’apprentissage supervisé est mis en place afin de pouvoir reconnaître les unités logiques. Les résultats obtenus en utilisant des données issues du monde industriel sont encourageants.

برای دانلود رایگان متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

منابع مشابه

Résumés et interrogations de logs de requête OLAP

Résumé. Une façon d’assister l’analyse d’entrepôt de données repose sur l’exploitation et la fouille de fichiers logs de requêtes OLAP. Mais, à notre connaissance, il n’existe pas de méthode permettant d’obtenir une représentation d’un tel log qui soit à la fois concise et exploitable. Dans ce papier, nous proposons une méthode pour résumer et interroger des logs de requêtes OLAP. L’idée de bas...

متن کامل

Correspondances compatibles avec les fichiers inverses pour la recherche d'information

RÉSUMÉ. Cet article fait un retour sur l’un des éléments majeurs d’un système de recherche d’information : la correspondance basée sur des fichiers inverses car le passage d’une formule théorique à une implantation compatible avec des fichiers inverse est rarement explicitée dans les publications. Nous proposons ici de définir plus formellement l’expression d’une formule de correspondance compa...

متن کامل

Comparaison de dissimilarité pour l'analyse de l'usage d'un site web

Résumé. L’obtention d’une classification des pages d’un site web en fonction des navigations extraites des fichiers "logs" du serveur peut s’avérer très utile pour évaluer l’adéquation entre la structure du site et l’attente des utilisateurs. On construit une telle typologie en s’appuyant une mesure de dissimilarité entre les pages, définie à partir des navigations. Le choix de la mesure la plu...

متن کامل

SQuIF: Subtile Quête d’Informations personnelles issues de Fichiers∗

De nos jours, une quantité croissante de données personnelles migre vers une toujours plus grande variété de fichiers numériques stockés sur des supports informatiques. La numérisation de nos vies soulève clairement l’intérêt de la gestion de données personnelles depuis des fichiers. Notre problématique est de proposer aux utilisateurs des techniques simples de gestion de leurs données, pour tr...

متن کامل

Analyse des performances des accès séquentiels aux fichiers sous Windows

RÉSUMÉ. Le but des études présentées dans cet article est de montrer et de comprendre les différents comportements et les variations de performances système, selon les modes d’accès aux fichiers utilisés (définis par Microsoft) pour la lecture et l’écriture intensive de flux de données de taille importante sur des machines modernes avec des disques récents. Nous traitons dans cet article des ac...

متن کامل

ذخیره در منابع من


  با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید

عنوان ژورنال:

دوره   شماره 

صفحات  -

تاریخ انتشار 2012